微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
全球首款多模态 AI 硬件 Looki L1 发布,抢先实现了 OpenAI 想象中的交互未来。过去两年,很多人对 AI 的印象,基本都停留在一个对话框里: 有问题,敲几个字,它就给答案。好用是好用,但也让人觉得有点单调——AI 难道就只能困在对话框里吗?
国产开源版 Genie 3 问世,昆仑万维用 1.8B 模型跑出了神级效果。如果你上传一个神庙逃亡游戏的截图,就可以在这个世界模型里面开一局,AI 脑补出来的画面会无限地向前延伸。
瞧,上面这套“哪里不对改哪里”的操作,就来自“凌晨战神”Qwen团队最新发布的——Qwen-Image-Edit。作为Qwen-Image20B的图像编辑版,Qwen-Image-Edit除了能做上面这种精准的文字修改,还能够新增、消除、重绘、修改元素,而且还支持IP编辑、视角切换、风格迁移等生成式玩法。
你有没有想过,Meta 训练 AI 用的数据里,有可能不只是维基百科、小说、YouTube 视频……而是你在某个晚上偷偷下载的成人电影? 你没听错。是色情片。而且不是三两个,而是 2396 部!
27 块钱,六个小时通关,玩完这款蔡浩宇倾注心血的首款 AI 游戏,有没有被科技惊艳到先放一边,英语实力可是获得了大大的提升!
NPU很好,但用不上。 我知道现在风口是 AI ,自家产品不沾点 AI 都不好意思拿出手 —— 但你们这些 “ AIPC ” 的宣传,是不是有点过了?
今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。
大家好,我是 AI牛马! 作为一个常年和代码打交道的技术博主,最头疼的就是接到“把这个老项目重构成 React”的需求。手动扒页面、抠样式、改交互……动不动就耗上几天。直到在 GitHub 发现 Open Lovable 这个神器,我才知道:原来克隆网站,AI 真的能比人快 10 倍!
在 AI 工具层出不穷的当下,很多人开始尝试用一个 AI 写故事、编脚本、润色文案。但对于日常需要写稿、整理内容的工作者来说,一个「替你写」的 AI,未必是最优解。幻觉、记忆、上下文,都是问题。